摘要。本文提出了一种新颖的视频生成模型,并特别尝试解决从文本描述生成视频的问题,即根据给定的文本合成逼真的视频。现有的视频生成方法由于帧不连续性问题及其无文本生成方案,无法轻易适应处理此任务。为了解决这些问题,我们提出了一种循环反卷积生成对抗网络 (RD-GAN),其中包括一个循环反卷积网络 (RDN) 作为生成器和一个 3D 卷积神经网络 (3D-CNN) 作为鉴别器。RDN 是传统循环神经网络的反卷积版本,可以很好地建模生成的视频帧的长距离时间依赖性并充分利用条件信息。可以通过推动 RDN 生成逼真的视频来联合训练所提出的模型,以便 3D-CNN 无法将它们与真实视频区分开来。我们将提出的 RD-GAN 应用于一系列任务,包括常规视频生成、条件视频生成、视频预测和视频分类,并通过实现良好的性能证明了其有效性。
主要关键词